03. 강화학습 기초(2) - 그리드월드와 다이나믹 프로그래밍

  • 다이나믹 프로그래밍 : 작은 문제가 큰 문제 안에 중첩돼 있는 경우에 작은 문제의 답을 다른 작은 문제에서 이용함으로써 효율적으로 계산하는 방법

  • 정책 이터레이션 : DP로 벨만 기대 방정식을 푸는 것

  • 가치 이터레이션 : 벨만 최적 방정식을 이용해 문제를 푸는 것

In [ ]: